TempoBench: Evaluando el razonamiento causal temporal en LLMs
TempoBench revela: LLMs logran 96% en simulación pero <25% en causalidad mínima. Fine-tuning en este benchmark mejora el razonamiento causal.
TempoBench revela: LLMs logran 96% en simulación pero <25% en causalidad mínima. Fine-tuning en este benchmark mejora el razonamiento causal.